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摘 要 : 针对 语义 分 割 中 残 差 网 络 并 不 能 完好 地 提取 图 像 信 息 和 分 割 效 果 差 的 问题 ， 提 出 一 种 联合 特征 金字 塔 模型 
(JFP) 用 来 融合 残 差 网 络 的 输出 特征 ， 并 结合 上 暗黑 空间 金字 塔 池 化 模型 (ASPP) 进 一 步 提取 特征 ， 在 解码 部 分 ， 应 用 简 
单 的 解码 结构 , 恢复 图 像 尺 寸 完 成 语义 分 割 , 同时 引入 注意 力 模型 作为 辅助 语义 分 割 网 络 , 辅助 神经 网 络 进行 训练 。 
该 方法 分 别 在 Pascal VOC 2012 数据 集 和 增强 的 Pascal VOC 2012 数据 集 对 网 络 进行 训练 ， 并 在 Pascal VOC 2012 的 
验证 集 上 进行 测试 ， 其 平均 交 并 集 之 比 (mIoU) 分 别 达到 了 78.55% 和 80.14%， 表 明 所 提 方 法 具有 良好 的 语义 分 割 性 
能 。 
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Research on semantic segmentation algorithm based on convolutional neural network 
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> (1. School of Electrical & Electronic Engineering, Hubei University of Technology, Wuhan 430068, China; 2. Dept of 
一 Computer Science & Engineering, University of South Carolina, Columbia, SC 29201, USA) 


Abstract: In order to solve the problem that the residual network can not extract image information well and the segmentation 
effect is poor in semantic segmentation, this paper proposed a joint feature pyramid model (JFP) to integrate the output features 
of the residual network, and then further extract the features in combination with the atrous spatial pyramid pooling module 
(ASPP). In the decoding part, this paper applied a simple decoding structure to recover the image size to complete the semantic 
segmentation This paper also used attention module as the auxiliary semantic segmentation network to assist the training of 
the neural network. This method trains the network in the Pascal VOC 2012 data set and the enhanced Pascal VOC 2012 data 
set respectively, and tests it on the verification set of Pascal VOC 2012. The average ratio of intersection and Union (Miou) is 
78.55% and 80.14% respectively, which shows that proposed method has good semantic segmentation performance. 

Key words: image semantic segmentation; joint feature pyramid module (JFP); atrous spatial pyramid pooling module 
(ASPP); attention module 


a 间 维 度 和 对 图 片 进行 分 制 ， 改 进 编 解码 模型 四 也 是 一 些 研究 
0 引言 ， 
一 的 方向 。 
= 图 像 的 语义 分 割 是 对 图 像 进行 像素 级 别 的 分 制 ， 需 要 对 于 语义 分 割 是 逐 像素 的 分 类 过 程 ， 卷 积 操作 使 得 网 络 
芭 像 的 每 一 个 像素 从 语义 上 进行 分 类 [53, 同一 类 别 的 像素 分 的 参数 量变 大 , 常常 需要 加 入 池 化 层 久 对 图 像 进行 降 维 处 理 ， 


名 

成 同一 类 别 标签 ， 体 现在 分 割 结 果 上 就 是 同一 类 别 的 物体 属 ”以 减少 参数 ， 这 又 会 产生 图 像 信息 丢失 的 问题 ， 而 进行 语义 
于 同一 个 颜色 标签 ， 而 不 同 颜色 就 是 不 同类 别 的 物体 。 分 割 必须 要 保持 与 原 图 像 的 像素 对 齐 ， 每 个 像素 的 信息 都 有 
卷 积 神经 网 络 (CNN) 的 应 用 使 得 图 像 语 义 分 割 快速 得 到 意义 ， 这 是 语义 分 割 面临 的 最 大 问题 。 继 而 Yu 等 人 09 提 出 
发 展 ， 各 种 基于 卷 积 神经 网 络 的 语义 分 割 网 络 结构 被 提出 。 了 膨胀 卷 积 ， 又 称 空洞 卷 积 00， 通 过 这 个 卷 积 操作 聚合 更 大 
加 州 大 学 伯克利 分 校 的 Long 等 人 是 提出 的 完全 卷 积 网 络 。 尺度 的 信息 ,同样 的 卷 积 核 尺寸 , 空洞 卷 积 有 更 大 的 感知 域 ， 


(FCN)， 去 掉 了 CNN 末端 使 用 的 全 连接 层 外 ， 使 得 网 络 最 后 有 效 地 解决 了 语义 分 割 中 信息 丢失 的 问题 。 

生成 的 不 是 固定 的 特征 向 量 , 而 是 可 以 变换 尺寸 的 特征 图 像 ， 此 外 ， 如 何 设计 一 个 神经 网 络 模型 也 是 语义 分 割 研究 中 

最 后 进行 逐 像素 的 分 类 以 达到 语义 分 割 的 目的 ， 类 似 FCND] 的 主要 内 容 。 金 字 塔 池 化 模型 (ASPP)0I 通 过 应 用 几 个 不 同 

的 思路 贯穿 在 语义 分 割 的 研究 当中 。 核心 尺寸 的 空洞 卷 积 层 来 扩大 感知 域 ， 得 出 不 同 尺度 的 特征 
FCN 之 后 ，Badrinarayanan 等 人 [9 提出 了 SegNet， 用 于 图 ， 结 合并 转换 成 固定 大 小 的 特征 图 ， 有 效 地 提取 了 图 像 的 

图 像 语 义 分 割 ， 是 一 种 深度 卷 积 编码 解码 架构 四， 并 跟随 着 空间 尺度 信息 , 不 过 却 增加 了 网 络 模型 的 大 小 , 而 Li 等 人 0 

一 个 像素 级 别 的 分 类 层 ， 编 码 过 程 通过 池 化 逐渐 减少 位 置信 引入 注意 力 机 制 ， 重 新 设计 了 一 种 注意 力 金 字 塔 模型 (PAN)， 


息 并 提取 图 像 更 深层 的 特征 ， 这 个 过 程 逐 渐 缩减 输入 图 像 的 。 进一步 提取 语义 信息 , 效果 进一步 提升 。Yu 等 人 [1 从 网 络 层 
空间 维度 ， 而 译 码 过 程 会 逐渐 恢复 位 置信 息 ， 并 恢复 原 有 空 ”次 的 信息 聚合 出 发 ， 详 细 介绍 并 总 结 了 不 同 网 络 层 的 连接 方 
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深度 和 不 


(DCNN) 作 为 骨架 网 络 , 在 出 
特定 神经 网 络 模型 , 但 是 DCNN 也 不 能 完 
征 ， 存 在 信息 丢失 的 问题 ， 
ResNet101 为 骨架 网 络 ， 设 计 了 
结合 文献 [11, 12] 中 的 ASPP 模型 


同 连接 的 深层 聚集 (DLAI) 模 型 
这 种 方法 可 以 加 入 其 人 
目前 这 些 网 络 模 型 绝 大 部 分 都 采用 了 


ChinaXiv 合 作 期 刊 


为 训练 本 文 的 语义 分 割 网 


CrossEntropy， 激 活 函 数 使 月 


模型 作为 畏 


助 网 络 ， 


1 ”本 文 方法 介绍 


1.1 总 体 框架 


本 文 的 总 体 框架 如 诺 


名 


架 网 络 进行 特 和 
出 的 


是 取 图 


后 三 层 进行 联合 ， 
言 息 丢失 的 问题 ; 


更 好 的 对 图 像 


像 的 空间 斥 度 信息 ， 
言 息 进 行 提 取 ;， 最 后 应 用 简章 


经 网 络 的 输出 


同时 ， 本 文 设计 了 一 个 注意 力 模型 作为 
将 这 个 模型 的 损失 函数 与 语义 分 割 网 络 的 损失 函数 结合 ， 辅 
络 进行 训练 ， 提 升 训练 模型 的 效果 。 


助 网 


— ResNet101 


注意 力 模型 


图 像 恢复 为 原始 大 小 ,完成 对 图 


上 会 已 
上 月 E 。 


接 入 ASPP 模型 
这 部 分 作为 编码 结构 能 够 
的 解码 结构 将 神 
像 的 语义 分 割 ; 


编码 结构 


JFP 


解码 结 


构 


甫 助 语义 分 割 网 络 ， 


» ASPP 二 


Lossl 


Loss2 


辅助 网 络 


图 1 


本 文 总 体 框架 


Fig. 1Overall framework 
1.2 联合 特征 金字 塔 模型 (JFP) 
本 文 提出 的 JFP 模型 如 图 2 所 示 。 首 先 ，ResNet101 输 


中 


| Lossg 
» 


有 ReLu 函数 ， 设 计 了 一 个 注意 力 
使 网 络 能 更 快速 的 收敛 ， 最 终 组 成 本 文 
的 图 像 语 义 分 割 方法 ， 提 高 语义 分 割 的 怕 


1 所 示 ， 首 先 选 择 ResNet101 作为 
提取， 提出 了 一 个 JFP 模型 将 ResNet101 
完善 ResNet101 对 特征 的 提取 ， 解 
然后 将 JFP 的 输出 


出 的 最 后 三 层 分 别 为 block1、block2 和 block3， 这 三 层 的 输 
出 尺寸 减 半 而 深度 增加 一 倍 ， 将 这 三 层 的 输出 分 别 通过 一 个 


卷 积 ， 其 中 ， 卷 积 核 尺寸 为 3， 激 活 函 数 为 ReLu， 在 图 像 边 
界 进行 1 个 像素 值 为 0 的 填充 ,从 而 不 改变 输出 图 像 的 尺寸 ， 
防止 过 拟 合 , 卷 


加 入 批量 归 一 化 处 理 , 采用 


积 核 的 深度 为 512， 


dropout 为 0.3 以 


使 得 输 


出 的 深度 都 变 成 


12, 然后 分 别 通 


过 空洞 卷 积 率 为 1、2 和 4 的 3x3 卷 积 ， 其 中 像素 填充 分 别 
与 空洞 卷 积 率 相 同 ， 不 采用 dropout 处 理 ， 其 中 空洞 卷 积 率 
为 2 和 4 的 卷 积 输出 还 要 在 图 像 边界 加 入 2 和 4 个 像素 值 为 


0 的 填充 ， 保 持 输出 尺寸 与 输出 的 相同 ， 加 入 双 线性 插值 ， 


对 这 两 个 输出 进行 调整 ， 使 得 输出 的 尺寸 与 blockl 相同 ， 
上 经 过 不 同 的 卷 积 处 理 得 到 三 个 
同 的 输出 ， 与 blockl 层 的 输出 尺寸 与 深度 相同 
将 这 三 个 输出 与 blockl 的 输出 相 加 ， 因 
征 图 尺寸 与 blockl 的 输出 相同 


ResNet101 的 三 层 输 则 


深度 相 


模型 中 使 


尺寸 与 


此 JFP 模型 输 
， 而 深度 为 2048。 本 文 在 JFP 


， 最 后 
出 的 特 


j 的 空洞 卷 积 率 较 小 ， 是 考虑 图 片 特征 能 更 好 的 提 


取 ， 它 的 感受 域 提升 并 不 大 ， 模 型 要 比 采 用 大 的 空洞 卷 积 率 
的 模型 要 小 ， 但 是 却 十 分 有 效 。 
1.3 ”暗黑 空间 金字 塔 模型 (ASPP) 

本 文 在 JEP 模型 后 使 用 ASPP 模型 (13 进一步 对 图 像 特 
征 进行 处 理 ， 其 模型 结构 如 图 3 所 示 。 模 型 输出 是 由 五 个 相 
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式 ， 再 此 之 上 设计 了 和 迭代 深度 聚集 (IDA) 和 分 层 深 度 聚 集 同 尺寸 和 深度 的 特征 图 相 加 得 来 ， 将 JFP 模型 的 输出 作为 输 
(HAD) 模 型 ， 通 过 IDA 和 HAD 的 组 合 连 接 ， 可 以 设计 不 同 入， 首先 ， 应 用 1x1 的 卷 积 ， 将 JFP 的 输出 深度 降 为 256， 
进行 语义 分 割 ， 同 时 生成 一 个 尺寸 为 (h,w) 深 度 为 256 的 特征 图 ， 其次， 应 用 空洞 

也 模型 中 ， 完 成 不 同 的 任务 。 卷 积 率 为 6，8 和 10 的 空洞 卷 积 ， 在 图 像 边 界 进行 6、8 和 

深度 卷 积 神经 网 络 。 “10 个 像素 值 为 0 的 填充 , 不 改变 图 像 尺 寸 , 输出 三 个 尺寸 为 

基础 上 设计 针对 图 像 语 义 分 割 的 (huw 深 度 为 256 的 特征 图 ; 然后 ， 应 用 全 局 池 化 结合 1x1 卷 

的 提取 图 像 的 特 。 积 ， 然 后 使 用 双 线 性 插值 法 恢复 图 像 尺寸 ， 输 出 一 个 尺寸 为 

为 解决 这 个 问题 ， 本 文 以 (h,w) 深 度 为 256 的 特征 图 ; 最 后 ， 由 这 5 个 输出 特征 图 相 力 

类 合 特征 金字 塔 (JFP) 模 型 ， 得 到 与 JFP 的 输出 特征 图 尺寸 相同 、 深度 为 1280 的 输出 。 其 

作为 编码 结构 ， 以 更 加 完整 中 ， 卷 积 的 激活 函数 为 ReLu， 加 入 了 批量 归 一 化 处 理 。 这 部 

的 提取 图 像 的 特征 ,建立 一 个 简单 的 解码 结构 恢复 图 像 信息 ， 分 模型 应 用 的 空洞 卷 积 率 相 较 于 文献 [11, 12] 减 小 了 ， 目 的 是 
络 模型 ， 损 失 函 数 使 用 SoftMax ”为 了 减 小 模型 结构 ， 相 比 于 本 文 JFP 模型 ， 采 用 相对 大 的 空 


洞 卷 积 率 , 较 大 的 增加 了 感受 域 的 大 小 , ASPP 在 本 文 JFP 的 


基础 上 进一步 提取 图 片 的 空间 尺度 信息 ， 
提取 的 效果 。 


能 更 好 地 提升 特征 


ResNet101 


图 2 联合 特征 金字 塔 模型 (JFP) 


Fig.2 Joint feature pyramid module(JFP) 


(h, w) 
2048 
(1 1) 
,| 空洞 卷 积 | 。 空洞 卷 积 | ”空洞 着 各 zw 朋 
lxl 郑 更 Rate: 6 | Rate: 8 | Rate: 10| Resize| 


(h, 


(h, Ww 站) 
256 256 


图 3 暗黑 空间 金字 塔 模型 (ASPP) 
Fig. 3 Atrous spatial pyramid module (ASPP) 
1.4 解码 结构 
本 文 设计 了 一 个 简单 的 解码 结构 , 如 图 


到 4 所 示 , 采用 1x1 


卷 积 、3x3 卷 积 和 1x1 卷 积 的 组 合 ， 第 
度 降 为 256， 第 二 个 卷 积 作 进 一 步 特 人 


个 卷 积 将 输入 的 深 


征 处 理 ， 第 三 个 卷 积 将 


深度 降 为 21， 与 Pascal YOC 2012 数据 集 


的 类 别 数 相同 (包括 


背景 )， 最 后 通过 双 线 性 插值 法 将 图 像 尺 寸 变 为 400x400， 这 


人 


而 其 中 3x3 卷 积 加 入 了 0.1 的 dropout， 与 
的 值 不 同 ， 因 为 设置 不 同 的 dropout 可 以 得 


(h, w) 1x1 
1280 


(h, w) 
256 


(h, w) 
256 


图 4 解码 结构 


尺寸 是 数据 集 裁剪 的 尺寸 ， 与 最 开始 输入 神经 网 络 的 图 像 
尺寸 保持 相同 。 卷 积 的 激活 函数 为 ReLu, 加 


入 批量 归 一 化 处 理 ， 
JFP 模型 中 dropout 
到 更 好 结果 。 


(400, 400) 
21 


Fig.4 Decoding structure 


1.5 注意 力 模型 


本 文 设计 了 一 个 注意 力 模型 作为 语义 分 割 模型 的 


甫 助 网 
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络 ， 其 结构 如 图 $ 所 示 , 首先 将 ResNet101 的 Block2 的 输 昌 
做 一 个 1x1 卷 积 处 理 , 将 特征 图 输出 深度 降 为 21， 然 后 进 和 


CE 


上 


全 局 池 化 处 理 , 其 中 卷 积 过 程 的 激活 函数 为 ReLu, 加 入 批量 
归 一 化 处 理 ， 最 后 通过 双 线 性 插值 法 将 输出 图 像 尺 寸 变 为 
400x400 。 
1x1 i 
el | 
SS 1/2(h, w) (1, 1) 
21 21 (400, 400) 
21 
图 5 注意 力 模 型 
Fig.5 Attention module 
这 一 部 分 的 网 络 是 作为 辅助 网 络 的 ， 将 这 个 网 络 的 损失 


函数 作为 语义 分 割 模型 损失 的 一 部 分 ， 辅 助 本 文 设计 的 神经 
网 络 进 行 训练 , 如 图 1 中 所 示 , 语义 分 割 网 络 的 损失 为 Fossl ， 
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验证 集 上 进行 测试 ， 测 试 结果 如 表 1 所 示 ， 本 文 mIoU 值 分 


别 为 


在 验证 集中 的 评价 结果 ,这 些 方法 和 


上 进行 预 训练 ， 可 见 本 文 的 方法 在 使 用 


时 候 


，mIoU 超过 ] 


时 候 ，mIoU 超过 其 中 一 些 方法 或 者 与 


其 中 的 方法 ， 而 使 用 


78.55% 和 80.14%， 其 他 为 文献 [11~13, 15~22] 中 的 方法 
的 骨架 网 络 均 在 ImageNet 
10582 张 训练 图 像 的 

1464 张 训练 图 像 的 


其 中 一 些 方法 接近 。 


市 


助 网 络 的 损失 为 Loss2 ， 


Lossl 和 Loss2 均 为 SoftMax 


CrossEntropy 损失 函数 所 定义 ， 为 式 (1) 所 示 。 


~ 


其 中 ， 


i,j €{1,2,3.. 


了 


Loss= -> ylog(y; ) 


> O) 
y 为 标签 图 像 中 属于 第 ;个 类 的 概率 


,21} ， 


值 


， 即 真 实 分 布 值 ，y 为 语义 分 割 模型 输出 预测 属于 第 ;个 类 


的 概率 值 ， 即 预测 分 布 值 ，> 


所 示 。 


™ 


数 


活 函 数 ， 最 后 层 使 用 
， 这 样 简单 而 且 


类 
2 


实验 。 本 文 使 月 
有 两 种 类 型 ， 第 一 种 包括 1464 
1456 张 测试 图 像 ; 第 二 种 
仿 测 数据 集 进行 扩充 ,包括 10582 张 训练 图 像 ，1446 张 验 
图 像 和 1456 张 测试 图 像 。 数 据 身 
站 上 进行 测试 ， 标 签 
1， 使 用 不 同 的 颜色 表示 不 同类 别 的 物体 ， 其 中 训 


像 和 


界 


证 


不 


个 


不 同类 别 
练 集 和 验证 集 的 标签 图 像 是 公布 的 ， 因 此 本 文 在 训练 集 


SoftMax 函数 定义 ， 如 式 (2) 


exp(x; ) 
7 


Pepts) 


六 = softmax(x; )= 


GO) 


最 终 训练 网 络 的 损失 函数 为 Losss ， 其 关系 式 如 式 (3) 所 示 。 


了 
ZLosstu = Loss1+0.5x Loss2= = ylog( 


其 中 ,0.5 为 本 文 设置 


o 


J 了 [2 
PH) ) OsxY Yost Ps) 


1 Pew . ( 3 ) 


六 ep 人 ) 


甫 助 网 络 对 整个 模型 损失 函数 的 影响 系 


在 语义 分 割 网 络 模型 的 卷 积 层 中 选择 ReLU 函数 作为 激 


SoftMax CrossEntropy 损失 函数 进行 分 


高 效 。 


实验 结果 与 分 析 


作者 将 本 文 提 出 的 方法 与 近 3 年 的 方法 进行 了 大 量 对 比 
日 的 数据 集 来 源 于 Pascal VOC 2012 数据 自 


HH lt 


名 


pa 


张 训练 图 像 ，1446 张 验证 攻 
曾 强 数据 集 , 加 入 了 Pascal 边 


图 像 分 辩 率 大 小 300-500 


等 》 在 验证 


| 7 


片 包括 背景 类 总 共有 21 


上 进 


行 网 络 训练 ， 在 验证 集 上 进行 指标 评价 ， 在 测试 集 上 比较 语 


义 分 割 结果 。 


型 ，GPU 型 号 为 8G GeForce RTX 2070， 


本 文 使 用 


Pytorch 作为 深度 学 习 框 架 ， 建 立 语义 分 割 模 


使 用 平均 交 并 集 之 


比 (mIoU) 作 为 性 能 评估 指标 ，mrIoU 值 越 高 表示 语义 分 割 效 


果 越 好 。 实 验 中 ，ResNet101 骨架 网 络 使 


的 是 在 ImageNet 


上 进行 预 训练 的 参数 ， 将 输入 图 片 大 小 调整 为 400x400， 然 
后 裁剪 为 384x384( 预 处 理 )， 设 置 欠 代 周期 为 180，batchsize 
为 8, 学 习 率 为 0.001, 学习 率 衰减 为 0.9, 权 重 衰减 为 0.0001。 
在 上 述 两 种 Pascal YOC 2012 数据 集 上 都 进行 了 实验 , 首先 ， 
在 Pascal VOC 2012 数据 集 (1464 张 训练 图 片 ) 上 对 网 络 进行 
练 ， 然 后 在 增强 的 Pascal VOC 2012 数据 集 (10582 张 训练 


训 


图 


片 ) 上 对 网 络 进 


行 训 练 ， 并 都 在 Pascal VOC 2012 数据 集 的 


表 1 Pascal VOC 2012 验证 集 mIoU 结果 
Tab. 1 Miou results of Pascal VOC 2012 validation set 
方法 骨架 网 络 mIoU/% 

BlitzNet05] ResNet101 72.40 
LadderDenseNetl17] DenseNet 78.01 
Context+Decoder+CREFSP2] ResNet101 75.26 
MSNet-4PH ResNet101 75.80 
DFNP0 ResNet101 79.54 
DeeplabV300 ResNet101 78.51 
DeeplabV3+02] ResNet101 78.85 
PAN[3] ResNet101 79.38 
SDNII9 DenseNet 78.60 
Auto-Deeplabl!s] ResNet101 75.26 
DUpsamling09] Xception 79.67 
本 文 1(1464 张 训 练 图 片 ) ResNet101 78.55 
本 文 2(10582 张 训练 图 片 ) ResNet101 80.14 


本 文 方法 的 速度 对 比如 表 2 所 示 ， 使 用 1464 张 训练 图 
像 时 ， 本 文 方法 训练 时 间 比 DeeplabV3+ 多 0.69 小 时 ， 验 证 
速度 比 DeeplabV3+ 慢 1.79 个 帧 率 (fps), 测试 速度 慢 1.13fps， 
使 用 10582 张 训练 图 像 时 , 本 文 方法 训练 时 间 比 DeeplabV3+ 
多 5.01 小 时 ， 验 证 速度 比 DeeplabV3+ 慢 1.56 个 帧 率 (fps)， 
测试 速度 慢 1.37fps， 本 文 方法 实现 语义 分 割 的 速度 下 降 近 
1.2fps, 即 本 文 方法 增加 了 网 络 模型 的 计算 量 , 使 得 语义 分 割 
的 速度 有 一 定 下 降 ， 不 过 却 并 不 ， 却 显著 提升 了 语义 分 割 的 
效果 ， 在 计算 量 与 效果 的 综 和 比较 上 ， 体 现 了 本 文 语义 分 割 
方法 的 优越 性 。 


表 2 本 文 方法 速度 对 比 
Tab.2 Speed comparison of our method 
方法 ImIoU/% train/h val/fps test/fps 
DeeplabV3+(1464) 77.59 16.16 22.36 17.13 
Ours1(1464) 78.55 16.85 20.57 16.00 
DeeplabV3+(10582) 78.89 117.45 22.29 17.20 
Ours1(10582) 80.14 122.46 20.73 15.83 


本 文 复 现 了 DeeplabV3+02 中 的 方法 ,并 在 每 个 类 别 的 交 
并 集 之 比 (IoU) 上 与 本 文 的 方法 进行 比较 ， 结 果 如 表 3 所 示 ， 


tT 


可 见 在 大 部 分 类 别 的 物体 分 割 上 ， 本 文 的 方法 具有 明显 的 提 
升 ， 而 在 使 用 较 少 训练 图 片 的 时 候 ，mlIoU 值 接近 
DeeplabV3+02 使 用 10582 张 训练 图 片 的 结果 , 而 在 有 些 物体 


上 ， 语 义 分 割 效 果 有 下 降 ， 可 能 是 遮挡 、 光 照 和 物体 细节 上 

另外 分 别 使 用 本 文 方法 和 DeeplabV3+I2] 方 法 在 Pascal 
VOC 2012 测试 集 上 生成 语义 分 割 结果 , 如 图 6 所 示 , 其 中 ， 
a 为 原 图 ，b 为 DeeplabV3+021 使 用 1464 张 训 练 图 像 的 语义 
分 割 结 果 ，e 为 本 文 方法 使 用 使 1464 张 训 练 图 像 的 语义 分 割 
结果 , d 为 DeeplabV3+LI2 使 用 10582 张 训练 图 像 的 语义 分 割 
结果 ,e 为 本 文 方法 使 用 10582 张 训 练 图 像 的 语义 分 割 结 果 。 
可 见 , 对 于 物体 的 大 部 分 区 域 , 与 DeeplabV3+02 方 法 比较 分 
割 效果 显著 ， 而 小 的 细节 上 都 存在 一 定 的 忽视 和 错误 。 而 本 
文 的 方法 最 终 在 物体 整体 语义 分 割 效果 上 具有 一 定 提升 ， 错 
误 的 语义 分 割 也 较 少 ， 分 割 出 了 其 他 类 别 的 物体 ， 或 将 其 他 
物体 分 割 为 目标 类 别 。 
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表 3 Pascal VOC 2012 验证 集 21 类 IoU 结果 
Tab.3 21 classes iou results of Pascal VOC 2012 validation set 


1464 training images 0582 training images 


类 别 
DeeplabV3+ 本 文 1 DeeplabV3+ 本 文 2 
background 92.38 93.88 93.90 94.26 
aeroplane 86.26 89.76 90.29 93.51 
bike 62.27 62.07 47.55 46.15 
bird 87.14 88.14 89.17 90.68 
boat 74.27 75.67 73.72 75.71 
bottle 79.38 79.18 79.67 86.23 
bus 91.49 91.37 93.99 93.78 
car 88.31 88.91 89.59 90.02 
cat 87.11 89.61 94.54 94.94 
chair 35:15 36.65 45.86 44.60 
COW 86.04 89.54 89.78 90.18 
table 60.36 61.17 50.42 53.70 
dog 86.93 87.23 90.21 91.55 
horse 86.73 87.73 89.04 89.56 
motorbike 85.96 85.26 88.36 88.80 
person 85.27 86.27 89.04 89.00 
plant 61.23 61.43 59.04 63.89 
sheep 86.21 87.21 87.34 89.51 
sofa 47.19 47.70 $52.38 49.69 
train 84.18 84.38 87.47 87.99 
television 75.47 76.37 75.36 79.29 
mloU(%) 77.59 78.55 78.89 80.14 


a. 原 图 b.Deeplab1l c.oursl 


d.Deeplab2 e.OUIS2 
图 6 Pascal VOC 2012 测试 集 语 义 分 割 结果 
Fig.6 Semantic segmentation results of Pascal VOC 2012 testing set 


3 ”结束 语 


本 文 提出 一 种 基于 卷 积 神经 网 络 的 语义 分 割 方法 ， 通 过 
本 文 提 出 的 联合 特征 金字 塔 模型 JFP) 融 合 残 差 网 络 的 三 层 
输出 ， 更 加 完整 地 提取 图 像 特征 ， 结 合 ASPP 模型 进一步 提 
取 图 像 特征 ， 设 计 了 一 个 简单 的 解码 结构 恢复 图 像 尺 寸 ， 在 
此 之 外 又 设计 了 一 个 注意 力 模型 作为 辅助 网 络 ， 辅 助 语义 分 
割 网 络 进行 训练 ， 本 文 的 方法 解决 了 特征 提取 信息 丢失 和 网 
络 训练 收敛 慢 的 问题 。 最 后 在 Pascal VOC 2012 数据 集 上 的 
对 比 结 果 表 示 ， 本 文 提 出 的 方法 在 mIoU 上 相 比 
Context+Decoder+CRFsP2]、MSNet-420 和 Auto-Deeplab[1s] 三 
种 方法 提高 了 将 近 5$% ， 相 比 LadderDenseNet07 、 
DeeplabV300、DeeplabV3+02 和 SDN0N9 四 种 方法 ， 本 文 使 用 
增强 数据 集 时 ,mIoU 有 1% 一 2% 的 提升 ,同时 也 超过 DFNDO、 
PANI3 和 DUpsamling09] 这 三 种 方法 近 0.5%。 未 来 对 于 图 像 
语义 分 割 的 工作 是 寻求 更 优 的 方法 ， 设 计 一 个 更 加 优化 的 模 
型 ， 提 取 图 像 的 细节 特征 ， 进 一 步 提 高 语义 分 割 的 效果 。 
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